We address the challenge of recovering an underlying scene geometry and colors from a sparse set of RGBD view observations. In this work, we present a new solution that sequentially generates novel RGBD views along a camera trajectory, and the scene geometry is simply the fusion result of these views. More specifically, we maintain an intermediate surface mesh used for rendering new RGBD views, which subsequently becomes complete by an inpainting network; each rendered RGBD view is later back-projected as a partial surface and is supplemented into the intermediate mesh. The use of intermediate mesh and camera projection helps solve the refractory problem of multi-view inconsistency. We practically implement the RGBD inpainting network as a versatile RGBD diffusion model, which is previously used for 2D generative modeling; we make a modification to its reverse diffusion process to enable our use. We evaluate our approach on the task of 3D scene synthesis from sparse RGBD inputs; extensive experiments on the ScanNet dataset demonstrate the superiority of our approach over existing ones. Project page: https://jblei.site/project-pages/rgbd-diffusion.html
translated by 谷歌翻译
最近的学习不变(因果)特征(OOD)概括最近引起了广泛的关注,在建议中不变风险最小化(IRM)(Arjovsky等,2019)是一个显着的解决方案。尽管其对线性回归的理论希望,但在线性分类问题中使用IRM的挑战仍然存在(Rosenfeld等,2020; Nagarajan等,2021)。沿着这一行,最近的一项研究(Arjovsky等人,2019年)迈出了第一步,并提出了基于信息瓶颈的不变风险最小化的学习原理(IB-imm)。在本文中,我们首先表明(Arjovsky等人,2019年)使用不变特征的支持重叠的关键假设对于保证OOD泛化是相当强大的,并且在没有这种假设的情况下仍然可以实现最佳解决方案。为了进一步回答IB-IRM是否足以在线性分类问题中学习不变特征的问题,我们表明IB-IRM在两种情况下仍将失败,无论是否不变功能捕获有关标签的所有信息。为了解决此类失败,我们提出了一个\ textit {基于反事实的信息瓶颈(CSIB)}学习算法,该算法可恢复不变的功能。即使从单个环境访问数据时,提出的算法也可以工作,并且在理论上对二进制和多类问题都具有一致的结果。我们对三个合成数据集进行了经验实验,以验证我们提出的方法的功效。
translated by 谷歌翻译
可以通过对手动预定义目标的监督(例如,一hot或Hadamard代码)进行深入的表示学习来解决细粒度的视觉分类。这种目标编码方案对于模型间相关性的灵活性较小,并且对稀疏和不平衡的数据分布也很敏感。鉴于此,本文介绍了一种新颖的目标编码方案 - 动态目标关系图(DTRG),作为辅助特征正则化,是一个自生成的结构输出,可根据输入图像映射。具体而言,类级特征中心的在线计算旨在在表示空间中生成跨类别距离,因此可以通过非参数方式通过动态图来描绘。明确最大程度地减少锚定在这些级别中心的阶层内特征变化可以鼓励学习判别特征。此外,由于利用了类间的依赖性,提出的目标图可以减轻代表学习中的数据稀疏性和不稳定。受混合风格数据增强的最新成功的启发,本文将随机性引入了动态目标关系图的软结构,以进一步探索目标类别的关系多样性。实验结果可以证明我们方法对多个视觉分类任务的许多不同基准的有效性,尤其是在流行的细粒对象基准上实现最先进的性能以及针对稀疏和不平衡数据的出色鲁棒性。源代码可在https://github.com/akonlau/dtrg上公开提供。
translated by 谷歌翻译
很难精确地注释对象实例及其在3D空间中的语义,因此,合成数据被广泛用于这些任务,例如类别级别6D对象姿势和大小估计。然而,合成域中的简易注释带来了合成到真实(SIM2REAL)域间隙的下行效应。在这项工作中,我们的目标是在SIM2REAL,无监督的域适应的任务设置中解决此问题,以适应类别级别6D对象姿势和尺寸估计。我们提出了一种基于新型的深层变形网络构建的方法,该网络缩短为DPDN。 DPDN学会了将分类形状先验的变形特征与对象观察的特征相匹配,因此能够在特征空间中建立深层对应,以直接回归对象姿势和尺寸。为了减少SIM2REAL域间隙,我们通过一致性学习在DPDN上制定了一个新颖的自我监督目标。更具体地说,我们对每个对象观察进行了两个刚性转换,并分别将它们送入DPDN以产生双重预测集。除了平行学习之外,还采用了一个矛盾术语来保持双重预测之间的交叉一致性,以提高DPDN对姿势变化的敏感性,而单个的内部矛盾范围则用于在每个学习本身内实施自我适应。我们在合成摄像头25和现实世界Real275数据集的两个训练集上训练DPDN;我们的结果优于无监督和监督设置下的Real275测试集中的现有方法。消融研究还验证了我们设计的功效。我们的代码将在https://github.com/jiehonglin/self-dpdn公开发布。
translated by 谷歌翻译
人重新识别(REID)的域概括(DG)是一个具有挑战性的问题,因为在培训过程中无法访问允许的目标域数据。大多数现有的DG REID方法都采用相同的功能来更新功能提取器和分类器参数。这种常见的实践导致模型过度拟合了源域中的现有特征样式,即使使用元学习,也会在目标域上对目标域的概括概括能力。为了解决这个问题,我们提出了一种新型的交织方式学习框架。与传统的学习策略不同,交织的学习结合了两个远期传播和每个迭代的后退传播。我们采用交错样式的功能,使用不同的前向传播来更新功能提取器和分类器,这有助于模型避免过度适应某些域样式。为了充分探索风格交织的学习的优势,我们进一步提出了一种新颖的功能风格化方法来多样化功能样式。这种方法不仅混合了多个培训样本的功能样式,还可以从批处理级别的样式发行中示例新的和有意义的功能样式。广泛的实验结果表明,我们的模型始终优于DG REID大规模基准的最先进方法,从而在计算效率方面具有明显的优势。代码可从https://github.com/wentaotan/interleaved-learning获得。
translated by 谷歌翻译
蒙面自动编码是一种流行而有效的自我监督学习方法,可以指向云学习。但是,大多数现有方法仅重建掩盖点并忽略本地几何信息,这对于了解点云数据也很重要。在这项工作中,据我们所知,我们首次尝试将局部几何信息明确考虑到掩盖的自动编码中,并提出一种新颖的蒙版表面预测(Masksurf)方法。具体而言,考虑到以高比例掩盖的输入点云,我们学习一个基于变压器的编码器码头网络,通过同时预测表面位置(即点)和每条效率方向(即,正常),以估算基础掩盖的表面。 。点和正态的预测由倒角距离和新引入的位置指标的正常距离以设定的方式进行监督。在三种微调策略下,我们的Masksurf在六个下游任务上得到了验证。特别是,MaskSurf在OBJ-BG设置下的ScanoBjectNN的现实世界数据集上胜过其最接近的竞争对手Point-Mae,证明了掩盖的表面预测的优势比蒙版的预测优势比蒙版的预测。代码将在https://github.com/ybzh/masksurf上找到。
translated by 谷歌翻译
对象点云的语义分析在很大程度上是由释放基准数据集的驱动的,包括合成的数据集,其实例是从对象CAD模型中采样的。但是,从合成数据中学习可能不会推广到实际情况,在这种情况下,点云通常不完整,不均匀分布和嘈杂。可以通过学习域适应算法来减轻模拟对真实性(SIM2REAL)域间隙的挑战。但是,我们认为通过更现实的渲染来产生合成点云是一种强大的选择,因为可以捕获系统的非均匀噪声模式。为此,我们提出了一个集成方案,该方案包括通过将斑点模式的投影渲染到CAD模型上,以及一种新颖的准平衡自我训练,通过散布驱动驱动的选择,通过将斑点模式投影到CAD模型上,并通过将斑点模式投影和一种新颖的准平衡自我训练来渲染立体声图像,该方案包括对象点云的物理现实综合。长尾巴的伪标记为样品。实验结果可以验证我们方法的有效性及其两个模块,用于对点云分类的无监督域适应,从而实现最新的性能。源代码和SpeckLenet合成数据集可在https://github.com/gorilla-lab-scut/qs3上找到。
translated by 谷歌翻译
作为SE(3)的基本组成部分 - Quivariant的深度特色学习,可转向卷积最近展示了其3D语义分析的优势。然而,优点由昂贵的体积数据上的昂贵计算带来,这可以防止其实际用途,以便有效地处理固有的稀疏的3D数据。在本文中,我们提出了一种新颖的稀疏转向卷积(SS-Char)设计,以解决缺点; SS-DIM大大加快了稀疏张量的可操纵卷积,同时严格保留了SE(3)的性质。基于SS-CONV,我们提出了一种用于精确估计对象姿势的一般管道,其中一个关键设计是一种特征转向模块,其具有SE(3)的完全优势,并且能够进行高效的姿势改进。为了验证我们的设计,我们对三个对象语义分析的三个任务进行了彻底的实验,包括实例级别6D姿势估计,类别级别6D姿势和大小估计,以及类别级6D姿态跟踪。我们基于SS-CONV的提议管道优于三个任务评估的几乎所有指标上的现有方法。消融研究还在准确性和效率方面展示了我们的SS-CONVES对替代卷积的优越性。我们的代码在https://github.com/gorilla-lab-scut/ss-conv公开发布。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译
A recent study has shown a phenomenon called neural collapse in that the within-class means of features and the classifier weight vectors converge to the vertices of a simplex equiangular tight frame at the terminal phase of training for classification. In this paper, we explore the corresponding structures of the last-layer feature centers and classifiers in semantic segmentation. Based on our empirical and theoretical analysis, we point out that semantic segmentation naturally brings contextual correlation and imbalanced distribution among classes, which breaks the equiangular and maximally separated structure of neural collapse for both feature centers and classifiers. However, such a symmetric structure is beneficial to discrimination for the minor classes. To preserve these advantages, we introduce a regularizer on feature centers to encourage the network to learn features closer to the appealing structure in imbalanced semantic segmentation. Experimental results show that our method can bring significant improvements on both 2D and 3D semantic segmentation benchmarks. Moreover, our method ranks 1st and sets a new record (+6.8% mIoU) on the ScanNet200 test leaderboard. Code will be available at https://github.com/dvlab-research/Imbalanced-Learning.
translated by 谷歌翻译